はじめに
始めるには、スクリプトの先頭で単にweave.init(project=...)
を呼び出すだけです。project
引数を使用して特定のW&Bチーム名にteam-name/project-name
でログを記録するか、project-name
を実行してデフォルトのチーム/エンティティにログを記録します。
呼び出しメタデータの追跡
Verdictパイプライン呼び出しからメタデータを追跡するには、weave.attributes
コンテキストマネージャーを使用できます。このコンテキストマネージャーを使用すると、パイプラインの実行や評価バッチなど、特定のコードブロックにカスタムメタデータを設定できます。
トレース
AI評価パイプラインのトレースを中央データベースに保存することは、開発中も本番環境でも非常に重要です。これらのトレースは、貴重なデータセットを提供することで、評価ワークフローのデバッグと改善に不可欠です。 Weaveは自動的にVerdictアプリケーションのトレースをキャプチャします。Verdictライブラリを通じて行われるすべての呼び出しを追跡し記録します。これには以下が含まれます:- パイプライン実行ステップ
- ジャッジユニット評価
- レイヤー変換
- プーリング操作
- カスタムユニットと変換
パイプライントレースの例
以下は、Weaveがネストされたパイプライン操作をトレースする方法を示すより複雑な例です:- メインのPipeline実行
- Layer内の各JudgeUnit評価
- MeanPoolUnit集約ステップ
- 各操作のタイミング情報
設定
を呼び出すと、weave.init()
Verdictパイプラインのトレースが自動的に有効になります。この統合はPipeline.__init__
メソッドにパッチを適用してVerdictTracer
を注入し、すべてのトレースデータをWeaveに転送します。
追加の設定は必要ありません - Weaveは自動的に以下を行います:
- すべてのパイプライン操作をキャプチャ
- 実行タイミングを追跡
- 入力と出力を記録
- トレース階層を維持
- 同時パイプライン実行を処理
カスタムトレーサーとWeave
アプリケーションでカスタムVerdictトレーサーを使用している場合、WeaveのVerdictTracer
はそれらと並行して動作できます:
モデルと評価
複数のパイプラインコンポーネントを持つAIシステムの整理と評価は難しい場合があります。weave.Model
を使用すると、プロンプト、パイプライン設定、評価パラメータなどの実験詳細をキャプチャして整理し、異なるイテレーションを比較しやすくなります。
次の例は、VerdictパイプラインをWeaveModel
でラップする方法を示しています:
評価
評価は、評価パイプライン自体のパフォーマンスを測定するのに役立ちます。weave.Evaluation
クラスを使用することで、Verdictパイプラインが特定のタスクやデータセットでどのように機能するかをキャプチャできます: